data2vec論文 Abstract
実際はアルゴリズムと目的関数(? objective)が単一のモダリティで開発されてきたため異なる
一般的な自己教師あり学習に近づくため、data2vecを発表
音声、NLP、コンピュータビジョンで同一の学習メソッドを用いるフレームワーク
核となるアイデアは、マスクされた入力に基づいて完全な入力データの潜在表現を予測すること
標準的なTransformerアーキテクチャを用いた自己蒸留で
(蒸留だからmodeについてteacherとstudentという言葉選びなのか!)
モダリティ固有の目的変数(target 語・ビジュアルトークン・発話単位)を予測する代わりに、
data2vecは完全な入力の情報を含む、文脈に応じた潜在表現(contextualized latent representations)を予測する
完全な(full, entire)→ マスクされた入力に対して
音声認識・画像分類・自然言語理解の主なベンチマークについての実験は、支配的なアプローチに対して(data2vecが)最先端または競い合った性能を示す